cs.CV 件の論文 | Gist.Science

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

本論文は、大規模な物理法則対応動画データセット「PhyVidGen-135K」の構築と、物理的整合性を保証する新しい最適化フレームワーク「PhyGDPO」を提案し、テキストから物理的に整合性の高い動画を生成する性能を大幅に向上させたことを示しています。

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

本論文は、3D 生成モデルの注意機構内でソースとターゲットの構造化潜在特徴を融合させる「MorphAny3D」という学習不要なフレームワークを提案し、カテゴリを超えた高品質で時間的に一貫した 3D モーフィングを実現するものです。

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

本論文は、LLM の推論能力と PDDL ベースの古典的プランナー、そして行動木を統合した「EmboTeam」フレームワークを提案し、異種ロボットチームによる長期的なタスク実行の成功率を大幅に向上させることを示しています。

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

本論文は、スマートグラスなどのウェアラブルデバイスによる常時オン型個人 AI アシスタントの実現に向け、数日〜数週間にわたる連続的な egocentric ビデオを理解するために、エンティティ・シーングラフを中核とした計画エージェントと構造化検索・推論ツールを組み合わせた「EGAgent」を提案し、長期ビデオ理解タスクにおいて最先端の性能を達成したことを報告しています。

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

本論文は、トランスフォーマーの注意機構を動的にインスタンス化される高速重み MLP として解釈し、これをランドマーククエリによる圧縮と各ランドマークに対するトップ-k 活性化キー・バリュー対の収集を組み合わせた「MiTA（Mixture of Top-k Activations）」戦略へと拡張することで、超長系列における効率的な注意メカニズムを提案しています。

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

本論文は、物理相互作用と背景更新を分離する「解離された動的予測」の原理に基づき、既存の高密度トランスフォーマーモデルに比べ推論速度を約 9 倍向上させつつ、ナビゲーションや操作タスクなど多様な領域で成功率を高める効率的な世界モデル「DDP-WM」を提案するものである。

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

本論文は、自己強制（Self Forcing）の知見に基づき、学習時の限定的な時間範囲とテスト時の無限の時間範囲の間のギャップを、学習不要な「Rolling Sink」という手法によって解消し、5 分〜30 分という超長尺の動画生成において一貫した被写体、安定した色調、整合的な構造、滑らかな動きを実現することを提案しています。

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

本論文は、予測の不確実性と放射線専門医が定義した関心領域との注意マップの不一致を組み合わせる二重基準戦略を採用した説明可能能動学習フレームワークを提案し、医療画像解析において少量のデータで高い性能と臨床的な解釈可能性を両立させることを実証しています。

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

本論文は、アリババのEC プラットフォームで実証された、絶対 ID 認識に基づく埋め込みと比較・較正リストワイズポリシーを採用した reranker により、産業用マルチモーダル検索の精度とリアルタイム性を飛躍的に向上させた「Pailitao-VL」システムを提案するものである。

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

本論文は、非定常性と非対称な神経ダイナミクスという課題に対処するため、正負の成分に分解した双方向デルタモジュールとゲート付き時系列畳み込みを組み合わせた新たなフレームワーク「DeltaGateNet」を提案し、複数の運転疲労データセットにおいて既存手法を上回る高い認識精度と汎化性能を実証したものである。

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

本論文は、Sora2 や Veo3 などの最新生成モデルが生成する高品質な合成動画を検出するために、事前学習済み動画埋め込みを直接モデル化する「EA-Swin」という新しいアーキテクチャと、13 万本の動画からなる大規模ベンチマーク「EA-Video」を提案し、既存手法を大幅に上回る精度と汎化性能を達成したことを示しています。

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

この論文は、都市規模の監視カメラネットワークにおいて、プライバシー保護（差分プライバシー）とデータ共有の制約を遵守しつつ、分散環境で視点変化や遮蔽、ドメインシフトに頑健な人物再識別を実現する「CityGuard」と呼ばれるトポロジー感知型トランスフォーマーフレームワークを提案し、その有効性を示しています。

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

既存の病理画像モデルが抱える組織構造の不均一性への対応不足を解消するため、RNA やタンパク質プロファイルなどの分子情報を活用して生体学的に意味のある適応領域を自動抽出する基盤モデル「CARE」を提案し、従来の 10 分の 1 のデータ量で 33 の下流タスクにおいて優れた性能を達成したことを報告する論文です。

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

本論文は、テキストから画像を生成する拡散モデルの効率的な微調整技術である LoRA の利便性を悪用し、特定のトリガー単語で意図的な画像を生成させる一方、それ以外では正常に動作するよう装う初の体系的なバックドア攻撃フレームワーク「MasqLoRA」を提案し、AI サプライチェーンにおける新たな脅威を明らかにしています。

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

本論文は、視覚的劣化（ぼやけ、ノイズなど）に起因する視覚的検索・生成タスクの性能低下を、因果関係に注目した二経路フレームワーク「RobustVisRAG」と新規ベンチマーク「Distortion-VisRAG」によって解決し、劣化条件下でも高精度かつゼロショットで汎用性のあるシステムを実現したことを提案しています。

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

この論文は、位置情報やラベルが不要なYouTube のような未加工の動画から、教師ありのマルチモーダル信号を用いて未来の点群やカメラ姿勢などを予測する教師ありフレームワーク「LFG」を提案し、単眼カメラのみで既存の多カメラやLiDAR ベースの手法を上回る自律運転の計画タスクにおける性能向上を実現したことを示しています。

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

本論文は、拡散モデルの生成過程における初期のクロスアテンション分布と最終的な画像品質の強い相関を利用し、生成が完了する前に画像品質を高精度に予測する軽量なフレームワーク「Diffusion Probe」を提案し、これにより計算コストを削減しながら出力品質を向上させることを可能にします。

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

本論文は、NeRF や 3D ガウススプラッティングなどのニューラル再構築手法が抱えるアーティファクトや動的物体の統合の難しさを克服するため、事前学習済み拡散モデルを単一ステップのオンライン強化器に変換し、合成・実データ対を用いた学習により、リアルタイムかつ高忠実度なシミュレーションを実現する「DiffusionHarmonizer」を提案するものである。

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D は、位置情報が未既知の 2 枚の画像から、3D 幾何学・3D 運動・カメラ姿勢を同時に推定する単一のダイナミック 3D ガウススプラット表現を用いた、最先端のフュードフォワード 4D 再構成フレームワークを提案します。

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

← 前へ次へ →