From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

この論文は、既知クラスの情報に基づいて未知クラスを推論する疑似未知埋め込みやマルチスケール対照的アンカー学習などの手法を提案し、従来のオープンボキャブラリー検出モデルが抱える未知物体の検出・学習の課題を解決し、オープンワールド環境下での物体検出性能を飛躍的に向上させるフレームワークを構築したものである。

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

この論文は、事前学習済みのテキストから動画への拡散モデルと SDS 損失を活用し、長さ・面積正則化と形状保存 ARAP 損失を導入することで、手書きスケッチのトポロジーを維持しつつ滑らかな一貫性のあるアニメーション生成を実現する手法を提案しています。

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

本論文は、自動運転のモーション予測タスクにおいて、高コストな手動アノテーションに依存せず、既存の検出器と追跡アルゴリズムから自動的に生成された擬似ラベル付き軌跡を用いた事前学習フレームワーク「PPT」を提案し、少量のラベル付きデータによる微調整で高い汎化性能と低データ領域での優れた成果を実現することを示しています。

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

この論文は、事前学習済み視覚モデルの全パラメータ微調整が特徴空間を制約し汎化性能を損なう問題を解決するため、バックボーンパラメータのわずか 3% だけを学習可能なパラメータ効率型転移学習手法「IV-tuning」を提案し、赤外線・可視光タスクにおいて既存の最先端手法を上回る汎化性と計算効率を実現したことを報告しています。

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

本論文は、短い動画モーメントの局所化精度向上を目指し、短モーメントのデータ多様性を高める「MomentMix」データ拡張手法と、長さ予測に特化した「Length-Aware Decoder」を提案し、主要ベンチマークで既存の DETR ベース手法を凌駕する性能を達成したことを報告するものである。

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

本論文は、拡散トランスフォーマーにおける制御情報の層ごとの関連性を評価し、不要なパラメータと計算を削減するとともに、独自の Two-Dimensional Shuffle Mixer を導入することで、PixArt-delta と比較してパラメータ数と計算コストを 15% に抑えつつ高性能な制御生成を実現する「RelaCtrl」というフレームワークを提案しています。

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

本論文は、CLIP モデルや画像・概念のラベルを一切必要とせず、既存の視覚分類器を教師なしで解釈可能な概念ボトルネックモデルに変換する新たな手法「U-F2^2-CBM」を提案し、既存の教師あり CLIP ベースの手法さえも凌駕する性能とゼロショット画像キャプション生成能力を実証しています。

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

本論文は、異なる生成モデルに共通する構造的な不整合を捉えるため、顔の領域ガイド型アテンションと層ごとの適応的マスク変調を組み合わせた新しい Vision Transformer「LAMM-ViT」を提案し、既存の最先端手法を大幅に上回る汎用性と高精度な AI 合成顔検出を実現したことを報告しています。

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

本論文は、深度推定とセマンティックセグメンテーションの基盤モデルを「Bridging Gate」と「Attention Temperature Scaling」技術によって統合し、リソース効率を維持しながら複雑なシーンにおける単眼深度推定の性能を飛躍的に向上させる手法「BriGeS」を提案しています。

Sanggyun Ma, Wonjoon Choi, Jihun Park + 4 more2026-02-27💻 cs

Sparse Imagination for Efficient Visual World Model Planning

この論文は、トランスフォーマーベースの視覚世界モデルにおいてランダム化されたグループアテンション戦略を用いてトークン処理をスパース化し、計算リソースを制約されたロボット環境でも高忠実度を維持しながら計画効率を劇的に向上させる「スパース・イマジネーション」という手法を提案しています。

Junha Chun, Youngjoon Jeong, Taesup Kim2026-02-27🤖 cs.AI

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

この論文は、単一の放射線科医の指示から時系列にわたる腫瘍の追跡と体積セグメンテーションを可能にする、登録とガイド付きセグメンテーションを組み合わせた新しいフレームワーク「LinGuinE」を提案し、4 つのデータセットで最先端の性能を達成したことを報告しています。

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess