USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

本論文は、太陽光発電システムの発展に不可欠な地上リモートセンシング雲画像のシーケンス外挿を目的とし、適応的大カーネル畳み込みと低計算コストの注意機構を統合した「USF-Net」という新しいネットワークと、これを用いた実験に不可欠な「ASI-CIS」データセットを提案し、既存手法を凌駕する精度と効率性を達成したことを報告するものです。

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

既存のマルチモーダル知識ベースの視覚的質問応答(MKB-VQA)ベンチマークが抱える「視覚的ショートカット」の課題を解決するため、関連エンティティを参照する新しいベンチマーク「RETINA」と、複数の関連エンティティ画像を文書埋め込みに統合する新しいモデル「MIMIR」を提案し、既存モデルの限界と提案手法の有効性を検証した。

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

本論文は、会話のターン間における因果的な相互作用をモデル化し、双方向の非言語的合図を含む滑らかな 3D 対話型ヘッドの生成を実現する新しいフレームワーク「TIMAR」を提案し、DualTalk ベンチマークにおいて既存手法を大幅に上回る性能を示したことを報告しています。

Junjie Chen, Fei Wang, Zhihao Huang + 5 more2026-02-27💻 cs

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

本論文は、事前定義された語彙に依存せず推論能力を強化した大規模マルチモーダルモデル(LMM)を用いて画像からカテゴリ名を自律的に発見・分類する新たなフレームワーク「FiNDR」を提案し、従来の手法や事前定義された正解ラベルを用いたゼロショット手法を上回る性能を達成したことを示しています。

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

本論文は、大規模な病理画像・テキストコーパスを構築し、診断理解モデルから抽出した意味トークンとプロトタイプ制御を活用する「UniPath」フレームワークを提案することで、従来の画素シミュレーションを超えた高品質かつ精密な制御が可能な病理画像生成を実現したものである。

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

本研究は、リアルな Web サイトから約 30 万件のタスクを収集した大規模オープンソース環境「WebGym」を提案し、非同期ロールアウトによる高速化と RL 学習の組み合わせにより、既知のモデルやプロプライエタリモデルを凌駕する視覚的 Web エージェントの学習に成功したことを示しています。

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

本論文は、視覚的推論と画像合成を分離し、CoT ベースのサンプリング、偏りのない報酬グループ化、バイナリチェックリストによる報酬評価を導入することで、推論中心の画像編集における既存の強化学習手法の課題を解決し、指示に忠実で視覚的に整合性の高い編集を実現する「ThinkRL-Edit」を提案しています。

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Molmo2 は、クローズドな VLM に依存しない 7 つの新しい動画データセットと 2 つのマルチ画像データセット、および効率的なトレーニング手法を採用し、オープンウェイトモデルとして最高水準のパフォーマンスを達成すると同時に、動画の指し示しや追跡といったグラウンディング能力において既存のオープンモデルだけでなくプロプライエタリモデルさえも凌駕する新しいビジョン・ランゲージモデルファミリーです。

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

本論文は、従来の LED 形状に依存しない汎用的な可視光位置推定手法「LC-VLP」を提案し、Lamé 曲線を用いた LED の形状特徴と対応付け不要の FreePnP アルゴリズムを組み合わせることで、円形や長方形など多様な LED 形状において高精度なカメラ姿勢推定を実現することを示しています。

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

この論文は、動画の符号化(コーデック)の原理に基づき予測残差にのみ焦点を当てるスパースなアーキテクチャ「OneVision-Encoder」を提案し、少ない計算資源で画像・動画・文書理解の各種ベンチマークにおいて既存の強力なモデルを上回る性能を発揮することを示しています。

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

本論文は、高解像度と低解像度の特徴間の整合性をモデル化することで正常性を学習し、従来のピクセルレベル再構成に依存しない教師なし工業異常検出フレームワーク「HLGFA」を提案し、MVTec AD データセットにおいて最先端の性能を達成したことを報告しています。

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs