cs.CV 件の論文 | Gist.Science

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

本論文は、予測の不確実性と放射線専門医が定義した関心領域との注意マップの不一致を組み合わせる二重基準戦略を採用した説明可能能動学習フレームワークを提案し、医療画像解析において少量のデータで高い性能と臨床的な解釈可能性を両立させることを実証しています。

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

本論文は、アリババのEC プラットフォームで実証された、絶対 ID 認識に基づく埋め込みと比較・較正リストワイズポリシーを採用した reranker により、産業用マルチモーダル検索の精度とリアルタイム性を飛躍的に向上させた「Pailitao-VL」システムを提案するものである。

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

本論文は、非定常性と非対称な神経ダイナミクスという課題に対処するため、正負の成分に分解した双方向デルタモジュールとゲート付き時系列畳み込みを組み合わせた新たなフレームワーク「DeltaGateNet」を提案し、複数の運転疲労データセットにおいて既存手法を上回る高い認識精度と汎化性能を実証したものである。

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

本論文は、Sora2 や Veo3 などの最新生成モデルが生成する高品質な合成動画を検出するために、事前学習済み動画埋め込みを直接モデル化する「EA-Swin」という新しいアーキテクチャと、13 万本の動画からなる大規模ベンチマーク「EA-Video」を提案し、既存手法を大幅に上回る精度と汎化性能を達成したことを示しています。

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

この論文は、都市規模の監視カメラネットワークにおいて、プライバシー保護（差分プライバシー）とデータ共有の制約を遵守しつつ、分散環境で視点変化や遮蔽、ドメインシフトに頑健な人物再識別を実現する「CityGuard」と呼ばれるトポロジー感知型トランスフォーマーフレームワークを提案し、その有効性を示しています。

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

既存の病理画像モデルが抱える組織構造の不均一性への対応不足を解消するため、RNA やタンパク質プロファイルなどの分子情報を活用して生体学的に意味のある適応領域を自動抽出する基盤モデル「CARE」を提案し、従来の 10 分の 1 のデータ量で 33 の下流タスクにおいて優れた性能を達成したことを報告する論文です。

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

本論文は、テキストから画像を生成する拡散モデルの効率的な微調整技術である LoRA の利便性を悪用し、特定のトリガー単語で意図的な画像を生成させる一方、それ以外では正常に動作するよう装う初の体系的なバックドア攻撃フレームワーク「MasqLoRA」を提案し、AI サプライチェーンにおける新たな脅威を明らかにしています。

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

本論文は、視覚的劣化（ぼやけ、ノイズなど）に起因する視覚的検索・生成タスクの性能低下を、因果関係に注目した二経路フレームワーク「RobustVisRAG」と新規ベンチマーク「Distortion-VisRAG」によって解決し、劣化条件下でも高精度かつゼロショットで汎用性のあるシステムを実現したことを提案しています。

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

この論文は、位置情報やラベルが不要なYouTube のような未加工の動画から、教師ありのマルチモーダル信号を用いて未来の点群やカメラ姿勢などを予測する教師ありフレームワーク「LFG」を提案し、単眼カメラのみで既存の多カメラやLiDAR ベースの手法を上回る自律運転の計画タスクにおける性能向上を実現したことを示しています。

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

本論文は、拡散モデルの生成過程における初期のクロスアテンション分布と最終的な画像品質の強い相関を利用し、生成が完了する前に画像品質を高精度に予測する軽量なフレームワーク「Diffusion Probe」を提案し、これにより計算コストを削減しながら出力品質を向上させることを可能にします。

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

本論文は、NeRF や 3D ガウススプラッティングなどのニューラル再構築手法が抱えるアーティファクトや動的物体の統合の難しさを克服するため、事前学習済み拡散モデルを単一ステップのオンライン強化器に変換し、合成・実データ対を用いた学習により、リアルタイムかつ高忠実度なシミュレーションを実現する「DiffusionHarmonizer」を提案するものである。

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D は、位置情報が未既知の 2 枚の画像から、3D 幾何学・3D 運動・カメラ姿勢を同時に推定する単一のダイナミック 3D ガウススプラット表現を用いた、最先端のフュードフォワード 4D 再構成フレームワークを提案します。

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

本論文は、視覚大規模言語モデルにおける GRPO 学習の前提を再考し、出力空間の拡大と安定した微細な報酬の重要性に注目して、アーキテクチャ変更なしに既存の GRPO 基盤モデルに統合可能な「Dr. Seg」というフレームワークを提案し、複雑な視覚タスクにおける性能向上と汎化能力の維持を実証しています。

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

本論文は、視覚的自己回帰モデルの局所性バイアスと残差学習の限界を克服し、空間的整合性を強化する「SCA」と階層的整合性制約「HCC」を導入した超解像フレームワーク「AlignVAR」を提案し、既存の拡散モデルに比べて推論速度が 10 倍以上、パラメータ数が約半分でありながら、高い構造的整合性と知覚的忠実度を実現することを示しています。

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

本論文は、外部の報酬モデルや注釈データに依存せず、モデル自身がノイズ復元能力から得られる「自己信頼度」を報酬信号として活用するポストトレーニング手法「SOLACE」を提案し、これによりテキストから画像の生成における構成力、文字描画、テキストとの整合性を向上させるとともに、外部報酬との組み合わせで報酬ハッキングを軽減できることを示しています。

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

本論文は、MoGe-2 からの高精度深度情報を活用した深度誘導ビュー変換と、空間的セマンティックなばらつきに対応する領域誘導エキスパート変換を組み合わせることで、自律走行における 3D 占有予測の幾何学的整合性とセマンティック学習を向上させる「Dr.Occ」フレームワークを提案し、Occ3D--nuScenes ベンチマークで BEVDet4D を大幅に上回る性能を達成したことを報告しています。

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

本論文は、拡散 LLM やマルチモーダル LLM における動的なアクティベーションの分布を考慮し、重みとアクティベーションの変換を分離する新しい量子化フレームワーク「FreeAct」を提案し、既存手法を最大 5.3% 上回る性能向上を実現したことを示しています。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

本論文は、画像生成モデルを活用したスケーラブルなデータ生成パイプラインと、学習可能クエリと潜在視覚特徴を統合したアーキテクチャ「Kiwi-Edit」を提案し、大規模データセット「RefVIE」と評価ベンチマーク「RefVIE-Bench」を構築することで、指示と参照画像に基づく高精度な動画編集を実現する新たな最先端技術を確立したものである。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

本論文では、単眼動画の全ピクセルに対して世界座標系における効率的な密な 3 次元トラッキングを可能にする、VGGT 型の ViT を基盤とした新規フィードフォワードモデル「Track4World」を提案し、既存手法を上回る 2D/3D フロー推定および 3D 追跡性能を実証しています。

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

本論文は、線形時間計算量で長期依存関係を保持しつつ、ゲート化差分線形注意機構（GDLA）を用いてアテンションの拡散や不安定性を克服し、医療画像セグメンテーションにおいて高精度かつ効率的な推論を実現するデコーダ中心のトランスフォーマー「PVT-GDLA」を提案するものである。

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

← 前へ次へ →