cs.CV 件の論文 | Gist.Science

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

本論文は、メタ学習とクラスタリングを組み合わせ、局所誤差に基づく動的再クラスタリング機構と分岐層を導入することで、構造化されていないグリッド上の多変量科学シミュレーションデータを効率的に符号化し、既存手法の課題を克服する新たなフレームワーク「MC-INR」を提案するものである。

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

CoBELa は、事前学習済み生成モデルの潜在空間における概念ごとのエネルギー関数を加法的に組み合わせることで、モデルの再学習なしに透明性のある概念制御生成と効率的な介入を可能にする、デコーダー不要のエネルギーベースフレームワークです。

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

この論文は、既存の視覚言語行動（VLA）モデルが抱える推論能力と操作性能のトレードオフや catastrophic forgetting の課題を解決するため、大規模視覚言語モデルの柔軟な推論能力を維持しつつ、新しい「VLA-IT」というトレーニング手法と 65 万サンプルのデータセットを用いて両者を最適化したエンドツーエンドモデル「InstructVLA」を提案し、シミュレーションおよび実世界での高い汎化性能と操作精度を実証したものである。

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

本論文は、凍結されたバックボーンから抽出された特徴を調整する時空間マルチモーダルアダプターと、段階的なクロスモーダルプロンプトを促進するプログレッシブ・マルチモーダル・コンプリメンタリーアダプターという 2 つのモジュールを組み合わせた「DMTrack」を提案し、わずか 0.93M の学習可能パラメータで 5 つのベンチマークにおいて最先端の性能を達成することを示しています。

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

この論文は、拡散モデルを用いた 2D 投影の事前知識と、正負の密度を学習する新しい負アルファブレンディング 3D ガウススプラッティング手法を組み合わせることで、単一の低解像度 CT 入力から高解像度画像を再構成するゼロショット 3D スーパー解像度フレームワークを提案し、臨床的な有用性を示したものである。

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

本論文は、視覚とテキストの両方の情報を活用して最大被覆基準に基づき情報量の多いビジョントークンを選択する手法「MMTok」を提案し、VLM の推論効率を大幅に向上させながら高い性能を維持することを示しています。

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

本論文は、リアルタイムな複数質問への対応を可能にする新たな課題「EQsA」を定義し、共有メモリと優先度計画を用いたエージェントフレームワーク「ConEQsA」と、公平な評価のためのベンチマークおよび指標を提案し、現実的な多質問負荷下での効率性と応答性の向上を実証しています。

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

本論文は、自律走行における道路トポロジー理解のためのビジョン・ランゲージモデル（VLM）の能力を包括的に評価し、最先端モデルであっても空間推論に根本的な限界があることを明らかにするとともに、モデルサイズや推論トークンの長さなどが性能に正の相関を持つことを示しています。

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

本論文は、教師モデルのノイズを抑制しつつ有益な情報を保持するために特異値分解に基づくノイズ除去手法「SiNGER」を提案し、これにより知識蒸留の性能を大幅に向上させる新たなフレームワークを提示しています。

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

本論文は、RGB と分光データの統合、MCP ベースのツールエコシステム、および包括的な評価ベンチマーク「Earth-Bench」を導入することで、複雑な地球観測タスクにおける推論と定量的分析を可能にする新たなエージェントフレームワーク「Earth-Agent」を提案し、地球観測分野における LLM の次世代応用へのパラダイムシフトを確立するものです。

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

本論文は、学習ベースのカメラ姿勢回帰と最適化ベースの微細調整を組み合わせることで、不安定なカメラ運動下でも高精度かつリアルタイムな密な3次元再構成を実現する「PROFusion」を提案し、既存の手法を上回る性能を示しています。

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

本論文は、1ms 未満で高精度な深度マップを生成する高速プロキシシステムを導入し、3D ガウススプラッティングにおけるオクルージョンを認識することで、レンダリングの高速化と品質向上を両立する「Proxy-GS」を提案するものです。

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

本論文は、従来の拡散モデルに比べて推論速度が速く、かつ個別の被写体への微調整を不要とする効率的な生成を実現するため、視覚的自動回帰（VAR）モデルを基盤とし、被写体の高次な意味的特徴と低次な詳細な特徴を分離して注入する二重経路戦略を採用した「EchoGen」という新しいフレームワークを提案するものである。

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

本論文は、3D 再構成における RNN の長さ一般化の限界を克服するため、テスト時学習の観点からメモリ状態と新規観測の整合性に基づいた学習率を導出する「TTT3R」というトレーニング不要の手法を提案し、大規模な画像処理において高い精度と効率を両立させることを示しています。

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Diffusion Transformer の限界を克服し、MLLM との深層なクロスモーダル推論を通じて複雑なプロンプトを視覚的対象に正確に結びつけることで、一貫性のある高品質な動画生成を実現する統合フレームワーク「BindWeave」を提案する論文です。

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

この論文は、任意の時間位置と任意の長さの中間フレームを生成可能にするため、時刻認識ローテート位置埋め込みと外観・運動の分離条件付け戦略を導入した新しい生成型動画補間フレームワーク「ArbInterp」を提案し、既存手法を上回る高忠実度かつ滑らかな時空間連続性を達成したことを述べています。

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

この論文は、大規模なデスクトップ（特にゲーム）データを活用してロボット制御を事前学習する「D2E」フレームワークを提案し、物理的実世界タスクにおいて大規模モデルに匹敵する高い性能を達成したことを示しています。

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

本論文は、単一のカメラ動画から人間、3D 空間、カメラ軌道をリアルタイムかつ一貫して復元する、依存関係や反復処理を不要とした統一された単一パスの 4D 再構築フレームワーク「Human3R」を提案するものです。

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

本論文は、マルチモーダル大規模言語モデルにおける画像検索の精度と効率を向上させるため、階層的分解に基づく新しいスケジューリングフレームワーク「MIRAGE」を提案し、既存システムと比較して最大 3.5 倍の計算削減と大幅な精度向上を実現したことを示しています。

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

本論文は、強化学習を用いた画像品質評価モデルが持つ優れた汎化性能の源泉が「推論による冗長な視覚表現から汎用的なテキスト表現への変換」にあることを解明し、その知見に基づいて推論プロセスや大規模言語モデルの依存を排除しながら、同等の汎化性能を極めて少ないパラメータと推論時間で実現する新たな手法「RALI」を提案するものである。

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

← 前へ次へ →