cs.CV 件の論文 | Gist.Science

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

本論文は、エントロピー誘導モンテカルロ木探索と視覚的幻覚注入によって構築された大規模なプロセス監視データセット「Geo-PRM-2M」と、それを活用したプロセス報酬モデル「GeoPRM」および強化学習アルゴリズム「Process-Aware Tree-GRPO」を提案し、リモートセンシング分野における推論の視覚的忠実性とテスト時スケーリングを飛躍的に向上させた「GeoSolver」フレームワークを紹介するものである。

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

この論文は、リモートセンシング画像と自然言語の微細なアライメントを改善するため、マルチ粒度の一貫性学習を提案し、RSFG-100k という新しいデータセットを構築して、既存手法を上回る性能を実現する GeoAlignCLIP というフレームワークを紹介しています。

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

この論文は、複数の狭視野画像の単純な統合を超えた全体的な空間理解を実現するため、悪天候や事故などの過酷なパノラマ環境を対象とした大規模データセット「PanoVQA」と、既存のモデルを再学習なしでパノラマ処理可能にするスパース注意機構を備えた「パノラマ言語モデル（PLM）」を提案しています。

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

この論文は、アテンション計算におけるクエリとキーの符号のみを保持し浮動小数点積をビット演算に置き換えることで、学習可能なバイアスや量子化感知学習などの手法と組み合わせることで精度を維持しつつ、FlashAttention2 の 2 倍以上の高速化を実現する「BinaryAttention」と呼ばれる 1 ビット QK アテンション手法を提案し、ビジョンおよび拡散トランスフォーマーにおいてフル精度と同等以上の性能を示すことを実証しています。

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

既存のテキストから全身の動きを生成する手法が抱える「特定の身体部位への意味的整合性の欠如」と「部位ごとの動きを統合した際の不自然さ」という課題を解決するため、部位ごとの動きを生成してそれをガイドとして活用し、テキストと部位の対応を強化する「ParTY」という新しいフレームワークを提案し、表現力と全身の整合性を両立させることを示しています。

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

この論文は、DINO によって生成された Vision Transformer の注意マップを人間の注視パターンに類似したサッケード（眼球運動）の指針として活用し、画像全体を処理するのではなく重要な領域に焦点を当てることで、計算効率を維持しつつ画像分類性能を向上させる生物学的に着想を得たアプローチを提案しています。

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

本論文は、MRI の物理的特性を埋め込んだ明示的なガウス表現と物理に基づくレンダリング戦略を採用することで、対データ不要かつ計算コストを抑えつつ高品質なゼロショット MRI 超解像を実現する新しいフレームワークを提案しています。

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

この論文は、エッジデバイス向けの画像復元タスクにおいて、FP32 自己蒸留、デコーダフリー蒸留、学習可能重み付け、および軽量な劣化ゲート機構を導入することで、量子化ノイズや容量の不一致といった課題を解決し、Int8 モデルで FP32 パフォーマンスの 96.5% を維持しつつ高速推論と高精度な物体検出を実現する「QDR」というフレームワークを提案しています。

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

本論文は、未 poses の動画から幾何学と姿勢を最適化し、視覚基盤モデルから高次元のセマンティック特徴を 3D ガウスに蒸留する効率的なパイプライン「X-GS-Perceiver」と、それを活用して物体検出やゼロショットキャプション生成などの下流タスクを可能にする「X-GS-Thinker」を含む、3D ガウススプラッティングとマルチモーダルモデルを統合する拡張可能なオープンフレームワーク「X-GS」を提案し、リアルタイムなセマンティック強化 SLAM を実現するものである。

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

本論文は、低テクスチャ環境や急激な照明変化下でもロバストな推定を可能にするため、線分に対して専用の学習不要な記述子を導入し、エントロピー正則化付き最適輸送を用いた対応付けと信頼度に基づく適応重み付けを備えた新しいステレオ視覚慣性オドメトリシステム「OTPL-VIO」を提案するものである。

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

この論文は、動画編集における背景の整合性と前景の品質向上という課題に対し、拡散モデルの「ハルシネーション（幻覚）」を検知して動的にキー・バリューの融合比率と CFG スケールを調整する学習不要なフレームワーク「KV-Lock」を提案し、既存手法を上回る結果を示しています。

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

この論文は、風という不可視で時空間的に変化する力と複雑に変形する物体の相互作用を、物理情報に基づく微分可能なフレームワーク「DiffWind」を用いて動画から再構成・シミュレーションする手法を提案し、新しいデータセット「WD-Objects」も公開している。

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

本論文は、3D ガウススプラッティングを用いた SLAM において、各スプラットの外観分散を明示的に学習し、単一パスのラスタライゼーションで信頼性の高い領域に焦点を当てた追跡とマッピングを実現する「VarSplat」という不確実性意識型のシステムを提案し、実世界および合成データセットにおいて既存手法を上回るロバスト性と精度を達成したことを報告しています。

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

既存のモーションキャプチャモデルの精度を向上させるため、2D 足関節キーポイントから 3D 残差運動を推定する手法「FootMR」と、その評価用データセット「MOOF」を提案し、特に足部の微細な動きの再構成において最先端の手法を上回る性能を達成した論文です。

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

この論文は、PhoBERT や Vision Transformer などの事前学習済みトランスフォーマーを活用し、大規模な自動構築データセット「AutoViVQA」を提案するとともに、多言語環境における自動評価指標と人間の判断との整合性を検証するベトナム語の視覚的質問応答（VQA）研究について述べています。

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

この論文は、4D レーダーの低密度な点群データから高精度な自動運転知覚を実現するため、局所的な詳細特徴と大域的な文脈情報を双経路アーキテクチャで融合する「DRIFT」というモデルを提案し、物体検出や自由道路推定において既存手法を上回る性能を示したことを述べています。

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

本論文は、手術動画の質問応答タスクにおいて言語的バイアスへの頑健性と時間的根拠の把握を両立させるため、低ランク適応（LoRA）の学習可能ブランチに軽量な時間的注意機構を組み込んだ新しいパラメータ効率的微調整手法「TemporalDoRA」を提案し、新たに作成したREAL-Colon-VQAデータセットなどを用いた実験でその有効性を実証しています。

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

本論文は、離散ウェーブレット変換を用いた周波数帯域分解と条件付き拡散モデルを組み合わせた「TriFusion-SR」という新しいフレームワークを提案し、MRI、CT、PET といった 3 種類の医療画像の融合と超解像を同時に処理することで、既存手法の限界を克服し、画質と診断精度を大幅に向上させることを示しています。

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

本論文は、3D ガウススプラッティングのデータ圧縮とストリーミング配信の課題を解決するため、オクトリー構造と相互情報量強化メカニズムを導入し、保存容量を 45 倍削減しながら視覚品質を 10% 以上向上させるプログレッシブ符号化方式「ProGS」を提案するものである。

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

← 前へ次へ →