cs.CV 件の論文 | Gist.Science

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

この論文は、自己教師あり学習を用いて少量のラベル付きデータ（1,000 パッチ）のみで 1 メートル解像度の広域土地被覆分類を実現し、ミシシッピ州全域の高精度マッピングを可能にしたことを示しています。

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q $^2$ : Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

本論文は、低ビット量子化における特徴融合段階の勾配不均衡を解決し、検出・セグメンテーションタスクの精度を大幅に向上させるための、勾配バランス調整とアテンション分布整列を統合した新しい量子化感知学習フレームワーク「Q $^2$ 」を提案しています。

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

本論文は、太陽光発電システムの発展に不可欠な地上リモートセンシング雲画像のシーケンス外挿を目的とし、適応的大カーネル畳み込みと低計算コストの注意機構を統合した「USF-Net」という新しいネットワークと、これを用いた実験に不可欠な「ASI-CIS」データセットを提案し、既存手法を凌駕する精度と効率性を達成したことを報告するものです。

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

既存のマルチモーダル知識ベースの視覚的質問応答（MKB-VQA）ベンチマークが抱える「視覚的ショートカット」の課題を解決するため、関連エンティティを参照する新しいベンチマーク「RETINA」と、複数の関連エンティティ画像を文書埋め込みに統合する新しいモデル「MIMIR」を提案し、既存モデルの限界と提案手法の有効性を検証した。

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

本論文は、VAE と潜在空間拡散モデルを組み合わせ、計算効率を維持しつつ不確実性を捉えた多様なセグメンテーション仮説を生成し、臨床診断の信頼性向上に寄与する「MedSegLatDiff」という医療画像セグメンテーション枠組みを提案しています。

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

本論文は、物理的に現実的で多様な気象条件を備えた合成データ生成フレームワーク「ClimaDrive」と大規模ベンチマーク「ClimaOoD」を提案し、これにより異常セグメンテーションタスクにおけるモデルの汎化性能と堅牢性を大幅に向上させることを示しています。

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

本論文は、視覚言語モデルの推論効率を向上させるため、冗長性と空間的疎性のバランスを最適化し、不要なトークンを剪除しながら重要情報を保持するトレーニング不要な新しいトークンプルーニング手法「VLM-Pruner」を提案するものである。

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

本論文は、会話のターン間における因果的な相互作用をモデル化し、双方向の非言語的合図を含む滑らかな 3D 対話型ヘッドの生成を実現する新しいフレームワーク「TIMAR」を提案し、DualTalk ベンチマークにおいて既存手法を大幅に上回る性能を示したことを報告しています。

Junjie Chen, Fei Wang, Zhihao Huang + 5 more2026-02-27💻 cs

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

本論文は、事前定義された語彙に依存せず推論能力を強化した大規模マルチモーダルモデル（LMM）を用いて画像からカテゴリ名を自律的に発見・分類する新たなフレームワーク「FiNDR」を提案し、従来の手法や事前定義された正解ラベルを用いたゼロショット手法を上回る性能を達成したことを示しています。

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

本論文は、大規模な病理画像・テキストコーパスを構築し、診断理解モデルから抽出した意味トークンとプロトタイプ制御を活用する「UniPath」フレームワークを提案することで、従来の画素シミュレーションを超えた高品質かつ精密な制御が可能な病理画像生成を実現したものである。

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

本研究は、リアルな Web サイトから約 30 万件のタスクを収集した大規模オープンソース環境「WebGym」を提案し、非同期ロールアウトによる高速化と RL 学習の組み合わせにより、既知のモデルやプロプライエタリモデルを凌駕する視覚的 Web エージェントの学習に成功したことを示しています。

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

本論文は、視覚的推論と画像合成を分離し、CoT ベースのサンプリング、偏りのない報酬グループ化、バイナリチェックリストによる報酬評価を導入することで、推論中心の画像編集における既存の強化学習手法の課題を解決し、指示に忠実で視覚的に整合性の高い編集を実現する「ThinkRL-Edit」を提案しています。

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

本論文は、視覚言語モデルの微調整後に生じる事前知識の忘却を、ゼロショットモデルと微調整済みモデルの間の低損失経路を探索する「MERGETUNE」という継続的微調整手法により、大規模なデータ再生なしに復元し、汎化性能とロバスト性を大幅に向上させることを提案しています。

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Molmo2 は、クローズドな VLM に依存しない 7 つの新しい動画データセットと 2 つのマルチ画像データセット、および効率的なトレーニング手法を採用し、オープンウェイトモデルとして最高水準のパフォーマンスを達成すると同時に、動画の指し示しや追跡といったグラウンディング能力において既存のオープンモデルだけでなくプロプライエタリモデルさえも凌駕する新しいビジョン・ランゲージモデルファミリーです。

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

A Pragmatic VLA Foundation Model

9 種類の双腕ロボットから収集した約 2 万時間の実世界データを用いて開発された VLA 基盤モデル「LingBot-VLA」は、既存の手法を上回る汎用性と実用性を示し、コード・モデル・ベンチマークデータをオープンソースとして公開することで、ロボット学習分野の発展を促進します。

Wei Wu, Fan Lu, Yunnan Wang + 22 more2026-02-27💻 cs

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

本論文は、従来の LED 形状に依存しない汎用的な可視光位置推定手法「LC-VLP」を提案し、Lamé 曲線を用いた LED の形状特徴と対応付け不要の FreePnP アルゴリズムを組み合わせることで、円形や長方形など多様な LED 形状において高精度なカメラ姿勢推定を実現することを示しています。

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

この論文は、残差ベクトル量子化 VAE と対照学習を組み合わせることで人間の動作からスタイルと内容を解離させ、推論時のコード交換によって微調整なしでスタイル転送を実現する新しい手法を提案しています。

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

この論文は、動画の符号化（コーデック）の原理に基づき予測残差にのみ焦点を当てるスパースなアーキテクチャ「OneVision-Encoder」を提案し、少ない計算資源で画像・動画・文書理解の各種ベンチマークにおいて既存の強力なモデルを上回る性能を発揮することを示しています。

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

本論文は、高解像度と低解像度の特徴間の整合性をモデル化することで正常性を学習し、従来のピクセルレベル再構成に依存しない教師なし工業異常検出フレームワーク「HLGFA」を提案し、MVTec AD データセットにおいて最先端の性能を達成したことを報告しています。

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

本論文は、Web 規模の動画で事前学習された世界モデルに基づく強化学習（RAMP）を採用し、複雑な長期タスクにおける適応性と成功率を大幅に向上させた新しい VLA モデル「GigaBrain-0.5M*」を提案しています。

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

← 前へ次へ →

cs.CV