cs.CV 件の論文 | Gist.Science

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

本論文は、冗長なマルチモーダルコンテキストによる効率性のボトルネックを解消するため、軽量ドラフトモデルと強力なターゲットモデルの協調により時間的知覚と推論を分離する強化学習ベースの「SpecTemp」フレームワークと、それに対応するデータセットを提案し、長動画理解における推論速度の大幅な向上と精度の維持を実現したことを報告しています。

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

本論文は、放射線被曝制限や撮影プロトコルの不一致により生じる造影 CT の時間相欠損問題を解決するため、時間不変の解剖学情報と時間依存の血流動態情報を分離・復元する物理学的知見に基づく「TARDis」と呼ばれる新しい深層学習フレームワークを提案し、大規模データセットにおいて既存手法を大幅に上回る腫瘍セグメンテーションおよび分類性能を実証したものである。

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

本論文は、AI 生成画像の検出において既存手法の限界を克服するため、カメラメタデータ（EXIF）を自己教師あり学習に活用し、写真本来の特徴を抽出することで、未知の生成モデルや自然な画像改変に対しても高い汎用性と頑健性を示す新たな検出手法を提案しています。

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

本論文は、地図の凡例やスケール、方位、幾何学的情報を統合して多段階の推論を行う「地図的推論」能力を評価するため、GIS 文献に基づいた空間関係（位相的、計量的、方向的）を網羅し、現状の最先端 Vision-Language モデルが人間に比べて著しく低い性能しか示さないことを明らかにした新たなベンチマーク「FRIEDA」を提案するものです。

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

この論文は、単一の画像から 1 秒未満でメトリックな 3D ガウス表現を推定し、リアルタイムで高解像度のフォトリアリスティックな近傍ビューを合成する新手法「SHARP」を提案し、既存の最良モデルと比較して合成時間を 3 桁短縮するとともに画質指標（LPIPS、DISTS）を大幅に改善したことを報告しています。

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

本論文は、イベントカメラの微細な時間情報を活用し、幾何学と放射輝度のレンダリングを分離する新しいアプローチを提案することで、事前情報や COLMAP 初期化を必要とせず、高精度かつ高速なイベントベースの 3D ガウススプラッティングを実現する手法を提示しています。

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

本論文は、視覚言語モデルの推論能力を連続制御に効率的に統合し、遅延を削減しながら安全かつ高精度な軌道計画を実現する新たなフレームワーク「ColaVLA」を提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

本論文は、潜在世界モデル（VJEPA-2）の物理的事前知識を報酬として利用し、推論時に複数の生成軌道を探索・誘導する「WMReward」を導入することで、動画生成モデルの物理法則への整合性を大幅に向上させ、ICCV 2025 の物理推論チャレンジで優勝を果たした手法を提案しています。

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

本論文は、多変量時系列予測においてチャネル順序に依存しない構造をデータから学習し、チャネルの追加や順序変更、未見チャネルへの適応を可能にする「CPiRi」という新しいフレームワークを提案し、理論的裏付けと複数のベンチマークでの最先端性能を実証しています。

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

本論文は、自然画像の輪郭と人工的なラップ不連続性を区別し、高ダイナミックレンジのモジュロ画像を高精度に復元するために、露光変化に対するスケール共変正則化と、生モジュロ画像・包み込み差分・閉形式初期化を統合した特徴量リフティングを導入した学習ベースの復元フレームワークを提案するものである。

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Imagine a City: CityGenAgent for Procedural 3D City Generation

本論文は、自然言語による指示に基づき、構造的整合性と視覚的整合性を確保するための教師あり微調整と強化学習を段階的に適用する「CityGenAgent」というフレームワークを提案し、高品質で編集可能なプロシージャルな 3D 都市の自動生成を実現するものです。

Zishan Liu, Zecong Tang, RuoCheng Wu + 6 more2026-03-02💻 cs

Erase at the Core: Representation Unlearning for Machine Unlearning

この論文は、既存の機械的忘却手法が抱える「表面的な忘却（ロジットレベルでの忘却は達成されるが内部特徴表現は残存する）」という課題を解決するため、ネットワークの全階層にわたって忘却を強制するプラグイン型フレームワーク「Erase at the Core (EC)」を提案し、中間層における表現の類似性を大幅に低減しつつ保持データでの性能を維持することを示しています。

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

本論文は、従来のトレーニング不要アプローチが抱える計算コストの課題を解決し、パッチベースの推論を低ステップ数で実行可能にする「PixelRush」を提案することで、4K 画像を約 20 秒で生成する超高速かつ高品質なテキスト画像生成フレームワークを実現したことを報告しています。

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Beyond Ground: Map-Free LiDAR Relocalization for UAVs

本論文は、GNSS 信号が弱い環境での無人航空機（UAV）向けに、新しい特徴量抽出モジュールと座標不変な位置エンコーディングを導入して高精度な地図不要 LiDAR 再局所化を実現する「MAILS」フレームワークと、実飛行特性を反映した大規模データセットを提案するものである。

Hengyu Mu, Jianshi Wu, Yuxin Guo + 5 more2026-03-02⚡ eess

COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception

本研究は、時間的連続性を活用して環境の動的変化を捉え、静的な情報を削減する適応型データ選択フレームワーク「COOPERTRIM」を提案し、自律走行の協調知覚において大幅な帯域幅削減を実現しながら精度を維持することを示しています。

Shilpa Mukhopadhyay, Amit Roy-Chowdhury, Hang Qiu2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs

SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

SceneTok は、既存の 3D 表現とは異なり、多視点入力から空間グリッドに依存しない圧縮されたトークン列を生成し、これを用いて高品質な新規視点レンダリングや高速な 3D シーン生成を実現する新しいトークナイザー手法を提案するものです。

Mohammad Asim, Christopher Wewer, Jan Eric Lenssen2026-03-02🤖 cs.AI

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

本論文は、大規模な学習や最適化を不要とし、CLIP と unCLIP デコーダを活用してプロトタイプに基づく画像合成を行うことで、マルチモーダルデータ蒸留の効率性とアーキテクチャ間汎化能力を飛躍的に向上させる学習不要なフレームワークを提案しています。

Junhyeok Choi, Sangwoo Mo, Minwoo Chae2026-03-02💻 cs

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

One2Scene は、単一画像から没入型の探索可能な 3D 空間を生成するために、パノラマ生成、3D 幾何学的足場へのアップリフト、および新規視点生成という 3 つの段階的なタスクに問題を分解し、大規模なマルチビューデータセットで学習された幾何学的事前知識を活用して、既存の手法が抱える幾何学的歪みやノイズを克服する革新的なフレームワークです。

Pengfei Wang, Liyi Chen, Zhiyuan Ma + 3 more2026-03-02💻 cs

Test-Time Training with KV Binding Is Secretly Linear Attention

本論文は、テスト時トレーニング（TTT）における KV バインディングが単なる記憶メカニズムではなく、学習された線形アテンション演算子として再解釈できることを示し、これによりモデルの挙動を説明するだけでなく、アーキテクチャの簡素化や並列化による効率化を実現することを提案しています。

Junchen Liu, Sven Elflein, Or Litany + 2 more2026-03-02🤖 cs.AI

← 前へ次へ →