cs.CV 件の論文 | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

本論文は、地球観測における視覚言語モデル（VLM）の性能を包括的に評価するための新しいベンチマーク「OmniEarth」を提案し、知覚・推論・頑健性の 3 つの次元で 28 のタスクを定義し、既存モデルが地理空間的に複雑なタスクにおいて依然として課題を抱えていることを示しています。

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

本論文は、視覚トークンの冗長性を削減しつつ本質的な情報を保持するために、意味的クラスタリングとグループ内非最大値抑制を組み合わせたトレーニング不要の手法「PruneSID」を提案し、LLaVA シリーズなど多様な VLM において既存手法を上回る高精度と高速推論を実現したことを報告するものです。

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

この論文は、自己注意エンコーディングと座標保持融合を用いたコンポーネント意識型の自己洗練フレームワークを提案し、既存の GAN や拡散モデルを上回る高忠実度かつ高品質なスケッチから画像への生成を実現するものである。

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

本論文は、時間的依存関係の活用不足と露出バイアスを解決するため、非対称な生成戦略と暗黙的なオプティカルフローモデリングを組み合わせた「対角蒸留（Diagonal Distillation）」を提案し、高品質な動画ストリーミング生成をリアルタイム（最大 31 FPS）で実現する手法を開発しました。

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

本論文は、事前学習されたビジョン・言語モデルの知識を維持しつつ少量データで効果的に適応させるため、プロンプトの進化経路を明示的に制御し、方向性を保持しながら更新を行う「EvoPrompt」という新しいフレームワークを提案するものである。

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本論文は、手術ビデオ理解における組織やタスクの多様性という課題に対処するため、言語ガイダンスを用いたチャネル選択とハイパーアグリゲーションを導入し、ロボット支援低侵襲手術のセグメンテーションと深度推定を統合的に学習するマルチタスク連合学習フレームワーク「SurgFed」を提案し、複数の公開データセットで最先端の性能を達成したことを示しています。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

本論文は、テキスト記述全体を探索の指針とする価値マップと、視点依存の3D 空間推論による候補検証を組み合わせることで、学習なしに複雑な 3D 環境におけるインスタンスナビゲーションの最先端性能を達成する「Context-Nav」を提案しています。

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

本論文は、自動運転における視覚言語モデル（VLM）が応答の一貫性や時間的推論の欠如により信頼性に課題を抱えていることを指摘し、未来のシーン推論を評価する新たなベンチマーク「FutureVQA」と、時間ラベルを必要としない自己教師ありチューニング手法を提案するものである。

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

本論文では、センサー劣化や敵対的攻撃といった現実世界の課題に対処するため、既存の BEV 知覚モデルにプラグアンドプレイで適用可能であり、潜在世界モデルを用いて汚染された観測からクリーンな特徴を予測・復元する強健な手法「RESBev」を提案し、nuScenes データセットでの実験によりその有効性を示しています。

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

DCAU-Net は、2 つの独立した softmax 注意マップの差分を計算して識別構造を強調し、計算複雑度を低減する「差分クロス注意（DCA）」と、スキップ接続とアップサンプリング経路からの特徴を適応的に再較正する「チャネル・空間特徴融合（CSFF）」を導入することで、医療画像セグメンテーションの精度と頑健性を向上させる新しいフレームワークを提案しています。

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

大規模な肺癌スクリーニングコホートにおける低線量 CT による PPFE の量的変化を分析した本研究は、PPFE の進行が死亡率の上昇や呼吸器関連の悪性転帰と独立して強く関連していることを明らかにし、PPFE の進行を定量的に評価することがスクリーニングプログラム内の呼吸器リスクの高い個人を特定するための臨床的に有用な画像バイオマーカーとなり得ると結論付けています。

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

この論文は、大規模なマルチモーダル交差データに依存せず、既存の統一モデルにグループ相対方策最適化（GRPO）を拡張した強化学習アプローチを導入することで、視覚的物語や段階的推論などのタスクにおける高品質なマルチモーダル交差生成を実現する手法を提案しています。

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

この論文は、動的かつ人間が関与する環境における Embodied Question Answering（EQA）の課題を解決するため、新しいデータセット「DynHiL-EQA」と、曖昧な観測の検証と情報豊富な証拠の選択的保持により推論効率と頑健性を両立させるトレーニング不要のフレームワーク「DIVRR」を提案しています。

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

本論文は、共通の数理モデルとハードウェア条件下で代表的な時間飛行非視界（ToF NLOS）撮像手法を包括的に比較検討し、それらの理論的・実験的側面における類似点と相違点を明らかにするとともに、将来の研究における客観的な手法比較のための基準となることを目指しています。

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

本論文は、エントロピー誘導モンテカルロ木探索と視覚的幻覚注入によって構築された大規模なプロセス監視データセット「Geo-PRM-2M」と、それを活用したプロセス報酬モデル「GeoPRM」および強化学習アルゴリズム「Process-Aware Tree-GRPO」を提案し、リモートセンシング分野における推論の視覚的忠実性とテスト時スケーリングを飛躍的に向上させた「GeoSolver」フレームワークを紹介するものである。

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

この論文は、リモートセンシング画像と自然言語の微細なアライメントを改善するため、マルチ粒度の一貫性学習を提案し、RSFG-100k という新しいデータセットを構築して、既存手法を上回る性能を実現する GeoAlignCLIP というフレームワークを紹介しています。

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

この論文は、複数の狭視野画像の単純な統合を超えた全体的な空間理解を実現するため、悪天候や事故などの過酷なパノラマ環境を対象とした大規模データセット「PanoVQA」と、既存のモデルを再学習なしでパノラマ処理可能にするスパース注意機構を備えた「パノラマ言語モデル（PLM）」を提案しています。

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

この論文は、アテンション計算におけるクエリとキーの符号のみを保持し浮動小数点積をビット演算に置き換えることで、学習可能なバイアスや量子化感知学習などの手法と組み合わせることで精度を維持しつつ、FlashAttention2 の 2 倍以上の高速化を実現する「BinaryAttention」と呼ばれる 1 ビット QK アテンション手法を提案し、ビジョンおよび拡散トランスフォーマーにおいてフル精度と同等以上の性能を示すことを実証しています。

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

既存のテキストから全身の動きを生成する手法が抱える「特定の身体部位への意味的整合性の欠如」と「部位ごとの動きを統合した際の不自然さ」という課題を解決するため、部位ごとの動きを生成してそれをガイドとして活用し、テキストと部位の対応を強化する「ParTY」という新しいフレームワークを提案し、表現力と全身の整合性を両立させることを示しています。

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

この論文は、DINO によって生成された Vision Transformer の注意マップを人間の注視パターンに類似したサッケード（眼球運動）の指針として活用し、画像全体を処理するのではなく重要な領域に焦点を当てることで、計算効率を維持しつつ画像分類性能を向上させる生物学的に着想を得たアプローチを提案しています。

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← 前へ次へ →